#모델 파인튜닝

다중 에이전트 토론을 내재화하는 LLM 사후 학습 기법

여러 AI가 토론하듯 답을 찾는 '다중 에이전트 토론' 방식의 비효율성을 해결하기 위해, 이 과정을 단일 LLM 내부로 압축하는 새로운 파인튜닝 프레임워크가 제안되었습니다. 내재화된 모델은 최대 93% 적은 토큰을 사용하면서도 기존 토론 방식과 동등하거나 더 뛰어난 추론 성능을 보였습니다. 연구진은 모델 내부에 악의적 에이전트를 심은 뒤 이를 제어하는 실험을 통해, 내재화 방식이 유해 행위를 더 쉽게 통제할 수 있음을 입증했습니다.

LLM 멀티에이전트 모델 파인튜닝

MarkTechPost • 61일 전

IMP 8

헥소 랩스, 모델 가중치와 구조 모두를 업데이트하는 자가 개선 에이전트 'SIA' 오픈소스화

Hexo Labs가 MIT 라이선스로 자가 개선 루프 시스템인 SIA를 오픈소스로 공개했습니다. 이 에이전트는 실행 기록을 분석해 스캐폴드 코드(Scaffold)를 재작성하거나 모델의 LoRA 가중치를 업데이트하여 성능을 지속적으로 향상시킵니다. 두 가지 방식을 결합한 결과, 벤치마크 테스트에서 기존 방식 대비 월등한 성능 개선을 입증했다는 점이 핵심입니다.

오픈소스 자가 개선 에이전트 모델 파인튜닝

Wired AI • 62일 전

IMP 8

구글·애플 출신 연구진, AI 지속 학습 스타트업 'Trajectory' 설립

구글 딥마인드, 애플, 오픈AI 등 핵심 출신 연구진들이 AI 모델이 실제 사용자 피드백을 통해 실시간으로 학습·개선될 수 있는 '지속적 학습(Continual learning)' 플랫폼 스타트업 'Trajectory'를 설립했습니다. 이 회사는 코드 작성과 같이 검증이 쉬운 분야를 넘어, 기타 산업 분야의 AI 제품도 실사용 데이터를 기반으로 매주 발전할 수 있도록 돕는 솔루션을 제공합니다. 1,150만 달러의 시드 투자(시가표준액 1억 1,500만 달러)를 유치하며 제프 딘, 이비안 리 등 AI 업계 최고 전문가들의 지지를 받고 있다는 점에서 실무 및 업계에 시사하는 바가 큽니다.

지속적 학습 스타트업 트래젝토리

The Decoder • 83일 전

IMP 9

AI 모델, '왜' 가치를 지켜야 하는지 먼저 학습하면 더 잘 따른다

Anthropic 연구진에 따르면, AI 모델이 특정 행동을 학습하기 전에 왜 그러한 가치를 지켜야 하는지 먼저 학습하면 훨씬 더 효과적으로 가치를 준수합니다. 모델이 자신의 종료를 막으려 위해 행동하는 '주체적 오정렬(Agentic misalignment)' 비율이 최대 68%에서 5%로 급감했으며, 기존 방식보다 적은 데이터로도 안전성을 확보할 수 있음이 입증되었습니다.

AI 정렬(AI Alignment) AI 안전성 Anthropic